لطفا جهت اطلاع از آخرین دوره ها و اخبار سایت در
کانال تلگرام
عضو شوید.
Apache Spark Streaming با Python و PySpark [ویدئو]
Apache Spark Streaming with Python and PySpark [Video]
نکته:
آخرین آپدیت رو دریافت میکنید حتی اگر این محتوا بروز نباشد.
نمونه ویدیوها:
توضیحات دوره:
Spark Streaming به طور باورنکردنی محبوب می شود و دلیل خوبی هم دارد. طبق گزارش IBM، 90 درصد از داده های موجود در جهان امروز تنها در دو سال گذشته ایجاد شده است. خروجی فعلی داده ما تقریباً 2.5 کوئینتیلیون بایت در روز است. جهان در حال غوطه ور شدن در داده ها است، روز به روز بیشتر. به این ترتیب، تجزیه و تحلیل DataFrames ایستا برای داده های غیر دینامیکی هر روز کمتر به یک رویکرد عملی برای مشکلات بیشتر و بیشتر تبدیل می شود. این جایی است که جریان داده وارد می شود، توانایی پردازش داده ها تقریباً به محض تولید، با تشخیص وابستگی زمانی داده ها. Apache Spark Streaming به ما توانایی نامحدودی برای ساخت برنامه های کاربردی پیشرفته می دهد. همچنین یکی از قانعکنندهترین فناوریهای دهه گذشته از نظر اختلال در دنیای دادههای بزرگ است. Spark محاسبات خوشهای درون حافظه را فراهم میکند که سرعت الگوریتمهای تکراری و وظایف دادهکاوی تعاملی را تا حد زیادی افزایش میدهد. Spark همچنین یک موتور قدرتمند برای پخش داده ها و همچنین پردازش آنها است. هم افزایی بین آنها Spark را به ابزاری ایده آل برای پردازش شیلنگ های آتش نشانی غول پیکر تبدیل می کند. هزاران شرکت، از جمله شرکت های Fortune 500، در حال تطبیق Apache Spark Streaming برای استخراج معنی از جریان های داده عظیم هستند. امروز، شما به همان فناوری کلان داده درست روی دسکتاپ خود دسترسی دارید. این دوره آموزشی Apache Spark Streaming به زبان پایتون تدریس می شود. پایتون در حال حاضر یکی از محبوب ترین زبان های برنامه نویسی در جهان است! جامعه داده غنی آن، ارائه مقادیر زیادی از جعبه ابزار و ویژگی ها، آن را به ابزاری قدرتمند برای پردازش داده تبدیل می کند. با استفاده از PySpark (API Python برای Spark)، میتوانید با انتزاع اصلی Apache Spark Streaming، RDDها و همچنین سایر اجزای Spark مانند Spark SQL و موارد دیگر تعامل داشته باشید! بیایید یاد بگیریم که چگونه برنامه های Apache Spark Streaming را با PySpark Streaming بنویسیم تا منابع داده های بزرگ را امروز پردازش کنیم! مروری بر معماری آپاچی اسپارک
نحوه توسعه برنامههای Apache Spark Streaming با PySpark با استفاده از تبدیلها و اقدامات RDD و Spark SQL، انتزاع اولیه Spark، Resilient Distributed Datasets (RDDs)، برای پردازش و تجزیه و تحلیل مجموعههای داده بزرگ.
تکنیکهای پیشرفته برای بهینهسازی و تنظیم کارهای Apache Spark با پارتیشنبندی، کش کردن، و RDDهای ماندگار.
تجزیه و تحلیل داده های ساختاریافته و نیمه ساختار یافته با استفاده از Datasets و DataFrames و ایجاد درک کامل از Spark SQL.
چگونه برنامههای Spark Streaming را برای پهنای باند و سرعت پردازش افزایش دهیم و Spark Streaming را با ابزارهای محاسباتی خوشهای مانند Apache Kafka ادغام کنیم تا جریان Spark خود را به منبع دادهای مانند Amazon Web Services (AWS) Kinesis متصل کنیم.
بهترین روش ها برای کار با Apache Spark Streaming در زمینه و نمای کلی اکوسیستم داده های بزرگ. این دوره برای توسعه دهندگان پایتون که به دنبال بهبود در جریان داده ها هستند، مدیران یا مهندسان ارشد در تیم های مهندسی داده، و توسعه دهندگان Spark مشتاق به گسترش مهارت های خود است. ایجاد خطوط انتقال داده های بزرگ با Spark با استفاده از Python * اجرای تجزیه و تحلیل بر روی داده های توییت زنده از توییتر * ادغام Spark Streaming با ابزارهایی مانند Apache Kafka که توسط شرکت های Fortune 500 استفاده می شود * کار با ویژگی های جدید جدیدترین نسخه Spark: 2.3 *
سرفصل ها و درس ها
شروع با Apache Spark Streaming
Getting started with Apache Spark Streaming
بررسی اجمالی دوره
The Course Overview
نحوه شرکت در این دوره و نحوه دریافت پشتیبانی
How to Take this Course and How to Get Support
مقدمه ای بر استریمینگ
Introduction to Streaming
آموزش راه اندازی Pyspark
Pyspark Setup Tutorial
نمونه برنامه توییتر
Example Twitter Application
اصول اولیه Pyspark
Pyspark Basics
جریان های گسسته چیست؟
What are Discretized Streams?
نحوه ایجاد جریان های گسسته
How to Create Discretized Streams
تحولات در DStreams
Transformations on DStreams
عملیات تحول
Transformation Operation
عملیات پنجره
Window Operations
پنجره
Window
countByWindow
countByWindow
reduceByKeyAndWindow
reduceByKeyAndWindow
countByValueAndWindow
countByValueAndWindow
عملیات خروجی در DStreams
Output Operations on DStreams
forEachRDD
forEachRDD
عملیات SQL
SQL Operations
بررسی مبانی
Reviewing the Basics
مفاهیم پیشرفته Spark
Advanced Spark Concepts
به عملیات بپیوندید
Join Operations
تحولات دولتی
Stateful Transformations
ایست بازرسی
Checkpointing
آکومولاتورها
Accumulators
تحمل خطا
Fault Tolerance
پخش جریانی PySpark در مقیاس
PySpark Streaming at Scale
تنظیم عملکرد
Performance Tuning
استریم PySpark با آپاچی کافکا
PySpark Streaming with Apache Kafka
PySpark Streaming با Amazon Kinesis
PySpark Streaming with Amazon Kinesis
جریان ساخت یافته
Structured Streaming
مقدمه ای بر جریان ساخت یافته
Introduction to Structured Streaming
عملیات بر روی دیتافریم ها و مجموعه داده های جریانی
Operations on Streaming Dataframes and DataSets
عملیات پنجره
Window Operations
مدیریت داده های دیرهنگام و واترمارکینگ
Handling Late Data and Watermarking
نمایش نظرات